El 10K de la Luz se llevó a cabo en la ciudad de Cali en octubre de 2022, con el objetivo de promover el deporte y la salud en la comunidad.
Este evento atrajo a muchos corredores de diferentes edades y niveles de habilidad, quienes compitieron en un recorrido de 10 kilómetros a través de las calles de la ciudad.
Para analizar los resultados de la carrera, se realizó una breve
exploración de los datos incluidos en el data set
CarreraLuz22 en la libreria paqueteMET
disponible en: https://github.com/dgonxalex80/paqueteMET.
El objetivo de esta exploración fue observar si hay algunas variables que estén relacionadas con los tiempos de finalización de la carrera.
Además de los datos, se utilizó información e imágenes obtenidas de: https://juanchocorrelon.com/intercontinental-10k-luz-2022/.
El presente ejercicio fue llevado a cabo por Camilo Vega Ramírez como parte del curso Métodos y Simulación Estadística de la Maestría en Ciencia de Datos de la Pontificia Universidad Javeriana en Cali.
Time Run: Es la variable objetivo de nuestro análisis, con una media de 3915.76 segundos, y una mediana de 3810.5 segundos. La distribución presenta una moderada asimetría positiva (skewness: 0.69). Cuenta un valor atípico extremo de 9962 segundos.
Edad: Cuenta con una media de 37.45 años, y una mediana de 36 años. La distribución presenta una moderada asimetría positiva (skewness: 0.64).
Origen: La variable Origen se encuentra desequilibrada, con aproximadamente el 86% de los participantes provenientes de Cali y el restante 14% de otras 48 ciudades. Debido a esto, descartaremos esta variable en nuestro análisis.
Sex: La proporción de participantes mujeres es aproximadamente del 39% y la de hombres es del 61%.
Categoria: La variable categoría está desequilibrada, con la categoría abierta siendo la de más participantes (aprox. 61%). Debido a esto, descartaremos esta variable en nuestro análisis. Sin embargo, dado que la variable edad presenta solo una moderada asimetría positiva, se seguiere refactorizando los rangos de edad en categorías equilibradas.
Nacionalidad: La variable nacionalidad se encuentra desequilibrada, con aproximadamente el 99% de los participantes siendo colombianos y el restante 1% de otras 5 nacionalidades. Debido a esto, descartaremos esta variable en nuestro análisis.
Time Rum: Para facilitar la comprensión, se ha
creado la variable timerun_minutes ue muestra el tiempo de
carrera en minutos. Además, se ha eliminado el valor atípico extremo.
Con estas modificaciones, el tiempo promedio se convierte en 65.21
minutos, la mediana en 63.5 minutos y la asimetría (skewness) se reduce
a 0.46, lo que se asemeja más a una distribución normal.
Rango Edades: Se ha utilizado la función
cut_number() de la libreria ggplot2 para crear
la variable rango_edad, que distribuye las edades en rangos
con una cantidad más similar de observaciones.
Tiempo Bajo Mediana: Se ha creado la variable
time_under_mean para identificar de manera binaria aquellas
observaciones cuya tiempo se encuentra por debajo TRUE o
por encima de la mediana FALSE Esta variable será utilizada
en un análisis de correlación con las variables categóricas
timerun_minutes y rango_edad.
Se utilizó la técnica de embudo de correlación, tal como se describe en la guía de la librería correlationfunnel. Se pudo observar que:
Sex: El género masculino presenta una correlación leve con los tiempos por debajo de la mediana y el género femenino presenta una correlación leve con los tiempos por encima de la mediana.
Rango Edad: Las edades entre 34 y 46 años presentan una correlación muy débil con los tiempos por debajo de la mediana, mientras que las edades entre 15 y 33 años y entre 47 y 76 años presentan una correlación muy débil con los tiempos por encima de la mediana.
Posteriormente, se realizarán comparaciones univariadas de
sex contra timerun_minutes y de
sex contra rango_edad, así como una
comparación multivariada de sex contra
timerun_minutes y rango_edad, estas dos
ultimas solo a manera de ejercicio debido a que, como se pudo observar,
la correlación entre los tiempos de carrera y los rangos de edad es
prácticamente inexistente.
| sex | min | q1 | median | mean | q3 | max |
|---|---|---|---|---|---|---|
| Hombre | 33.13 | 53.58 | 60.07 | 61.95 | 69.02 | 114.47 |
| Mujer | 39.25 | 61.60 | 68.99 | 70.36 | 78.57 | 111.37 |
| rango_edad | min | q1 | median | mean | q3 | max |
|---|---|---|---|---|---|---|
| (33,39] | 35.20 | 55.94 | 62.23 | 64.28 | 72.60 | 105.88 |
| (39,46] | 39.30 | 55.93 | 62.27 | 64.47 | 72.16 | 111.37 |
| (46,76] | 37.30 | 56.33 | 64.02 | 65.08 | 72.65 | 105.18 |
| (28,33] | 34.02 | 57.32 | 65.05 | 65.48 | 72.40 | 98.77 |
| [15,28] | 33.13 | 56.91 | 65.30 | 66.57 | 76.56 | 114.47 |
Tiempo por Genero: En los datos obtenidos, se puede observar que en general, los hombres obtienen tiempos de carrera más rápidos que las mujeres. Aunque esto se puede ver claramente en la gráfica y la tabla, también es importante tener en cuenta que ambas distribuciones no son uniformes y presentan señales de bimodalidad, lo que sugiere la existencia de otras variables que aún no han sido descritas y que pueden tener un impacto en la velocidad por género.
Tiempo por Rango de Edad: En cuanto a los tiempos de carrera por rango de edad, aunque las medianas son distintas entre los diferentes grupos de edad, los rangos intercuartiles son muy similares para la mayoría de los grupos. Además, también es posible notar múltiples modalidades en los datos, lo que indica que puede existir alguna otra variable no analizada que pueda explicar mejor los tiempos de carrera.
“En base a los resultados obtenidos como se muestra a través de las gráficas y la tabla, podemos decir que existe una diferencia en los tiempos de carrera entre hombres y mujeres, sin importar el rango de edad. Además, el análisis muestra que el rango de edad no es un factor determinante en la velocidad de carrera. Una vez más al observar la presencia de múltiples modalidades en los resultados, podemos concluir que hay variables no incluidas en el conjunto de datos que podrían ayudar a comprender de manera más completa los tiempos de carrera.”
Después de analizar las diferentes variables en el conjunto de datos de la CarreraLuz22, solo encontramos una relación entre la variable “timerun” y la variable “sex”, en el cual el tiempo mediano de los hombres es 8 minutos menor que el tiempo mediano de las mujeres en este conjunto de datos específico. Sin embargo, se detectó la posible existencia de otras variables que expliquen de manera más efectiva la variable “timerun”, pero que no se encuentran en el conjunto de datos.
Es importante destacar que este solo es un ejercicio exploratorio que tiene como objetivo describir los datos mencionados, y se recomienda realizar estudios más rigurosos para llegar a cualquier tipo de inferencia respecto a los tiempos de carrera en este tipo de competencias.